بهبود خلاصه سازی متن به زبان فارسی با روش عامل بندی ماتریس

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - دانشکده کامپیوتر و فناوری اطلاعات
  • نویسنده میرجابر نعمتی
  • استاد راهنما چیترا دادخواه
  • سال انتشار 1393
چکیده

با گسترش حجم اسناد و اطلاعات متنی نیاز به سیستم هایی که قادر به تولید خلاصه خودکار از متون بوده به نحوی که اطلاعات کلیدی موجود در آن را پوشش دهد و جایگزینی برای مطالعه متن اصلی شود، بیش ازپیش مورد تأکید قرارگرفته است. خلاصه سازی خودکار متن یکی از زمینه های کاری پردازش زبان های طبیعی است و وظیفه ی آن ارائه یک نسخه کوتاه شده از یک (یا چند) سند بوده به نحوی که حاوی اطلاعات مهم موجود در آن باشد. دسته بندی اصلی که برای سیستم های خلاصه ساز ارائه می شود دو دسته ی استخراجی و چکیده ای است. اکثر تحقیقات صورت گرفته در زمینه ی خلاصه سازی متن بر روی زبان انگلیسی صورت گرفته است با این وجود در سال های اخیر تحقیقاتی در این زمینه بر روی زبان فارسی نیز صورت گرفته است. هدف این پایا ن نامه ارائه سیستمی جهت خلاصه سازی متون در زبان فارسی است. سیستم پیشنهادی از نوع عمومی و تک سندی بوده و از روش های استخراجی برای خلاصه سازی متون استفاده می نماید. در خلاصه ساز پیشنهادی از الگوریتم کاهش ابعاد عامل بندی غیرمنفی ماتریس((nmf استفاده شده و روش جدیدی برای امتیازدهی به عبارات موجود در متن درنظر گرفته شده است. این وزن دهی شامل فرکانس تکرار عبارت درون جمله، فرکانس تکرار عبارت در کل متن و نیز محاسبه معیار هم جواری برای هر عبارت است. ارزیابی سیستم پیشنهادی بر اساس خلاصه های تولیدشده توسط عامل انسانی از پایگاه داده ی همشهری ارائه شده است.

منابع مشابه

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش‌های پردازش زبان طبیعی و گراف شباهت

A significant amount of available information is stored in textual databases which contains a large collection of documents from different sources (such as news, articles, books, emails and web pages). The increasing visibility and importance of this class of information motivates us to work on having better automatic evaluation tools for textual resources. The automatic summarization of tex...

متن کامل

حذف بندی در زبان فارسی

چکیده در این مقاله پدیده ‘حذف بندی’ در زبان فارسی مورد بررسی قرار می‌گیرد. چنین بررسی‌ای با معرفی انواع حذف بندی در زبان فارسی ( با مرجع و بدون مرجع آشکار ) واکنش حذف و تاثیر آن را در هر یک مورد مطالعه قرار می‌دهد. با مرور شواهد زبان فارسی نشان می‌دهیم یکی از پرطرفدارترین تحلیل‌های مطرح امروزی در توجیه این نوع ساخت‌ها با نام ‘ تحلیل حذف ’ پاسخگوی تمامی تنوعات دستوری جملات فارسی نیست. از این رو ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - دانشکده کامپیوتر و فناوری اطلاعات

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023